heise+ | So funktioniert ArcticDB: Vom Dataframe zur Hochleistungsdatenbank

Data-Scientists sind häufig mit enormen Mengen an Zeitreihendaten konfrontiert, beispielsweise bei der quantitativen Analyse. Um diese Herausforderung zu meistern, entwickelte die Man Group, ein britischer Finanzdienstleister, eine eigene, Dataframe-zentrierte Datenbank: ArcticDB. Das Besondere: Das System speichert pandas-Dataframes spaltenorientiert und stellt jede Änderung als neue Version bereit. Durch diese Art der Speicherung, unveränderliche (immutable) Versionierung und native pandas-Integration erleichtert ArcticDB den Umgang mit riesigen Datensätzen.

Herkömmliche Dateiformate und Data-Warehouse-Systeme reichen nicht immer aus, um Dataframes mit Milliarden Zeilen effizient zu verarbeiten. Das Konzept von ArcticDB stellt Dataframes in den Mittelpunkt des Datenmodells (siehe Artikel „Our Journey Creating ArcticDB: Solving the Challenge of Dataframes at Scale“ von William Dealtry, einem der Hauptentwickler von ArcticDB). Zwei Ideen sind dabei zentral: günstiger Cloud-Speicher und Immutabilität. Statt Daten nachträglich zu ändern, erzeugt ArcticDB bei jeder Schreiboperation eine neue Version, was Skalierung und Zeitreisen ermöglicht. Daraus leiten sich die Kerneigenschaften des Datenbanksystems ab:

heise+ | So funktioniert ArcticDB: Vom Dataframe zur Hochleistungsdatenbank

Für riesige Datenmengen braucht man andere Lösungen als klassische Datenbanken. Wir erklären, wie ArcticDB effizient Datenreihen in Python speichert.